Tokens: AI-språkets legobitar

Lästid: ca 5 min

I det här momentet bygger vi vidare på dina kunskaper från "Grunderna i AI-tänkande" genom att gräva djupare i tokens. Tokens är de allra minsta enheterna som AI-modeller använder för att bearbeta, förstå och generera text. Att förstå tokens är nyckeln till att kunna kommunicera effektivt med AI och få de svar du önskar.

1. Vad är en token?

En token är den grundläggande byggstenen i AI:ns språkbehandling. Den kan representera olika delar av text:

Ett helt ord: Till exempel "skola" eller "elev".
En del av ett ord: Som "för-" i "förståelse", "un-" i "undantag", eller "sam-" i "samarbete".
Skiljetecken: Punkt (.), komma (,), utropstecken (!).
Mellanslag: Även mellanslag kan räknas som en egen token av vissa modeller.

När du skriver en prompt bryter AI-modellen ner din text i tokens och tilldelar varje token ett unikt numeriskt ID. Det är dessa ID:n som modellen sedan bearbetar internt. Det här systemet gör det möjligt för AI:n att hantera alla språk och även ovanliga ord genom att de bryts ner i kända, mindre delar.

2. Tokenisering i praktiken

Låt oss titta på ett exempel för att visualisera hur text omvandlas till tokens:

Exempel: Meningen "Svenska lärare kan använda AI i sin undervisning."

kan delas upp i tokens ungefär så här:

Svenska
lärare
kan
använda
AI
i
sin
undervisning
.

I detta exempel blir det totalt 9 tokens (exklusive eventuell hantering av mellanslag). Viktigt att notera är att olika AI-modeller använder olika "tokenizers", vilket innebär att exakt hur en mening delas upp och hur många tokens den resulterar i kan variera något mellan olika AI-tjänster (t.ex. mellan ChatGPT, Gemini eller Claude).

3. Hur AI-modeller bearbetar tokens

Innan vi talar om praktiska konsekvenser, låt oss förstå vad som händer när AI:n bearbetar tokens. När du skickar en prompt till en AI-modell:

Tokenisering: Din text bryts ner i tokens (som vi såg ovan)
Sannolikhetsberäkning: För varje position i svaret beräknar modellen sannolikheten för vilket token som bör komma härnäst
Val av token: Modellen väljer nästa token baserat på dessa sannolikheter (detta påverkas av inställningar som temperatur, som vi kommer att lära oss mer om i kommande moment)
Upprepning: Processen upprepas för varje nytt token tills svaret är komplett

Detta innebär att varje token som genereras påverkar valet av nästa token, vilket förklarar varför AI kan bygga sammanhängande och logiska svar.

4. Varför token-räkning är viktigt

Att ha koll på tokens är inte bara en teknisk detalj, det har direkta praktiska konsekvenser för hur du använder AI:

Kostnad och prestanda: Fler tokens kräver mer beräkningskraft och energi. Detta innebär att prompts med många tokens kan ta längre tid att bearbeta, förbrukar mer energi och, om du använder kommersiella API:er, kan de också kosta betydligt mer. För skolor som använder AI-tjänster är det därför viktigt att lära eleverna att formulera effektiva, kortfattade prompts.
Context window (kontextfönster): Varje AI-modell har en begränsad "minneskapacitet", kallad kontextfönster. Detta är det maximala antalet tokens som modellen kan "komma ihåg" och bearbeta samtidigt i en konversation. Om din prompt, plus eventuell tidigare chatt-historik, överskrider detta fönster, kommer modellen att "glömma" de äldsta delarna av texten. Detta leder till att den inte kan basera sitt svar på all information du gett den.
Precision i prompten: Eftersom modellens "minne" är begränsat, är det avgörande att du placerar den viktigaste informationen i din prompt där den har störst chans att uppmärksammas. Undvik onödiga inledningar eller "fluff" som tar upp värdefulla tokens i början av prompten.

5. Interaktiva token-verktyg

För att få en bättre känsla för tokens kan du prova interaktiva verktyg online. Många AI-utvecklare och plattformar erbjuder så kallade "tokenizer-playgrounds" där du kan:

Klistra in din text.
Se exakt hur den bryts ner i tokens.
Få en exakt siffra på hur många tokens din text består av.
Experimentera med att förkorta eller omstrukturera dina prompts för att se hur det påverkar antalet tokens. Ett exempel på ett sådant verktyg är OpenAIs Tokenizer.

6. Praktiska tips

Att förstå tokens hjälper dig att formulera effektivare prompts:

Använd token-räknare: Lär dig och dina elever att använda onlineverktyg för att räkna tokens. Detta hjälper er att förstå hur "långa" era prompts faktiskt är i AI:ns ögon och att optimera dem.
Klipp bort "fluff": Uppmana eleverna att vara direkta och koncisa. Långa, svävande meningar med onödig information tar bara upp tokens utan att tillföra värde. Korta, tydliga instruktioner ger ofta mer precisa AI-svar.
Iterera och testa: Det är en del av processen att experimentera! Uppmuntra eleverna att testa flera olika formuleringar av en prompt. Ibland kan en liten omformulering drastiskt minska antalet tokens och leda till ett bättre resultat.

7. Reflektionsövning

För att omsätta denna kunskap i praktiken, fundera på följande:

Välj en prompt du har använt nyligen med en AI-modell. Använd ett onlineverktyg för att räkna antalet tokens. Hur många blev det?
Kan du skriva om samma prompt så att den använder 20% färre tokens, utan att den förlorar sin ursprungliga innebörd eller instruktion? Hur gjorde du för att korta ner den?
Diskutera med en kollega: Hur skulle ni på bästa sätt introducera konceptet "tokens" för era elever så att de förstår dess betydelse för AI-kommunikation?

Nästa moment: kontextfönster: Varför modellen glömmer - nu när vi förstått vad tokens är, kommer vi att utforska hur många tokens AI-modellen kan hantera samtidigt (dess "minne") och hur du effektivt kan arbeta inom dessa gränser för att få konsekventa och relevanta svar.

Så tänker AI-modeller